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摘 要 认 知 诊断 模型 的 标准 误 (Standard Error, SE; 或 方差 一 协 方差 矩阵 ) 与 置信 区 间 
(Confidence Interval, CD 在 模型 参数 估计 不 确定 性 的 度量 、 项 目 功能 差异 检验 、 项 目 水 平 上 的 
模型 比较 、Q 算 阵 检验 以 及 探索 属性 层级 关系 等 领域 有 重要 的 理论 与 实践 价值 。 本 研究 提出 
了 两 种 新 的 SE 和 CI 计算 方法 : 并 行 参数 化 自助 法 和 并 行 非 参数 化 自助 法 。 模拟 研究 发 现 : 

模型 完全 正确 设 定时 ， 在 高 质量 及 中 等 质量 项 目 条 件 下 ， 这 两 种 方法 在 计算 模型 参数 的 SE 


和 CI 时 均 有 好 的 表现 ， 模 型 参数 存在 元 余 时 ， 在 高 质量 


及 计算 效率 提升 效果 。 


及 
分 允许 存在 的 模型 参数 而 言 ， 其 SE 和 CI 有 好 的 表现 。 通 过 实证 数 和 


中 等 质量 项 目 条 件 下 ， 对 于 大 部 
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1 引言 


认 知 诊断 模型 (Cognitive Diagnosis Model, CDM) 或 称 诊断 分 类 模型 ， 


模型 (Rupp et al., 2010)， 当 前 已 广泛 应 用 于 心理 、 教 育 或 4 
Torre, 2014). 潜在 属性 在 不 同 领域 有 不 同 的 含义 , 例如 , 知识 、 技能、 认 知 过 程 、 精 神 障 人 碍 、 
究 者 可 以 通过 被 试 的 


甚至 是 病原 体 等 (Rupp et al., 2010; Wu et al., 2017)。 恰 当 应 月 


B 


展示 了 新 方法 的 价值 


是 一 类 离散 潜 变量 


E 物 学 等 领域 (例如 ，Tjoe & de la 


Н CDM, # 


外 显 行为 去 推论 每 个 个 体 的 多 维 潜 在 属性 掌握 状况 ， 为 被 试 提供 及 时 的 反馈 、 个 性 化 的 指导 


或 针对 性 的 补救 。 


CDM 模型 参数 的 标准 误 (Standard Error, SE) 是 关于 模型 参数 估计 不 确定 性 的 度量 (Liu et 


有 不 同 的 置信 区 间 (Confidqence Interval, CD)， 因 此 需要 综合 
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al, 2021)。 在 心理 统计 与 测量 模型 中 ， 点 估计 值 相同 的 两 个 模型 参数 可 能 由 于 SE 不 同 而 具 


考虑 模型 参数 的 点 估计 值 与 Clo 
例如 ，CDM 中 两 个 项 目的 猜测 参数 估计 值 均 为 0.2, 但 SE 的 估计 值 分 别 为 0.08 与 0.05， 那 


么 这 两 个 猜测 参数 的 估计 精度 不 同 。 根 据 正 态 分 布 理论 ， 第 一 个 猜测 参数 的 95%C7 是 [0.2- 


1.96*0.08, 0.2+1.96*0.08]， 第 二 个 猜测 参数 的 95%CI 是 [0.2--1.96*0.05, 0.2+1.96*0.05]. IEA 


如 此 , 国内 外 多 种 心理 学 期 刊 (如 心理 学 报 ， 或 参考 American Psychological Association, 2020) 
要 求 或 建议 报告 SE 及 95%CIo 然而 , 在 国内 外 的 CDM 实证 研究 中 ,报告 模型 参数 的 SE 及 
CI 的 研究 仍然 较 少 。 造 成 这 种 现象 的 原因 是 多 方面 的 , 主要 原因 在 于 缺乏 易 用 的 计算 方法 。 
接 下 来 ， 本 文 将 对 两 类 常用 的 SE 及 CI 的 估计 方法 : 解析 法 以 及 自助 法 目前 存在 的 问题 展 
开 探 讨 ， 并 提出 一 类 简易 、 可 行 的 方法 。 

CDM 中 模型 参数 的 SFE( 或 广义 而 言 ， 方 差 一 协 方差 矩阵 ) 在 推论 统计 中 具有 基础 与 核心 


作用 (Liu, Xin etal., 2019; Philipp etal., 2018)。 除 用 于 计算 CI 外 ， 模 型 参数 的 SE 在 项 目 功能 


差异 检验 (Liu, Yin, et al., 2019; Ma et al., 2021; xij E 等 , 2016)、 项 目 水 平 上 的 模型 比较 (de 


la Torre & Lee, 2013; Liu, Andersson, et al., 2019; Ma & de la Torre, 2016, 2019)、Q 和 矩阵 检验 


(Ma & de la Torre, 2020a) 以 及 探索 属性 层级 关系 (Liu et al., 2021; Wang & Lu, 2021) 等 领域 也 
有 重要 价值 ,对 于 模型 参数 的 SE 的 估计 , 研究 者 提出 了 多 种 基于 解析 法 的 估计 方法 (Liu, Xin 


et al., 2019; Liu et al., 2021; Philipp et al., 2018; 刘 彦 楼 等 , 2016)， 包 括 : 经 验 交 叉 相 乘 信息 


Ж FE 75 (Empirical Cross-product Information Matrix, XPD)、 观 察 信 息 和 矩阵 法 (Observed 


e = Information Matrix, Obs) 和 三 明治 信息 矩阵 法 (Sandwich-type Information Matrix, Sw). 

i 在 模型 参数 可 识别 条 件 下 (Gu & Xu, 2020; Wang & Lu, 2021)， 研 究 者 通过 数据 模拟 以 及 
实证 数据 分 析 的 方式 探索 了 使 用 解析 法 信息 矩阵 (Liu et al., 2016; xl PE 等 , 2016) 计 算 的 模 
型 参数 (包括 项 目 参数 与 用 于 描述 被 试 分 布 的 结构 参数 ) 的 SE 及 CI 的 表现 。 关 于 项 目 参数 的 
SE 及 CI， 研 究 者 比较 了 在 理想 状况 下 ( 即 模型 与 观察 数据 完美 拟 合 )、 在 CDM 的 项 目 反 应 
模型 和 /或 Q 矩阵 错误 设 定 条 件 下 , XPD. Obs 或 Sw 方法 的 表现 (Liu, Xin, etal., 2019; Philipp 
etal.,2018)。 研 究 发 现 ， 当 模型 [包括 项 目 反 应 模型 与 Q 矩阵 ) 完 全 正确 设 定 或 存在 较 少 错误 
设 定时 ， 这 三 种 方法 在 项 目 参数 的 SE 估计 的 一 致 性 方面 都 有 好 的 表现 ;在 模型 存在 严重 错 
误 设 定时 (如 ， 项 目 反 应 模型 与 Q 矩阵 同时 包括 较 多 的 错误 )， 只 有 Sw 具有 健壮 性 (Liu, Xin, 


et al, 2019)。 关 于 结构 参数 的 SE 及 CI， 研究 者 在 HCDM (Hierarchical Cognitive Diagnosis 


Ж 


Model; Templin & Bradshaw, 2014) 框 架 下 进行 了 探索 (Liu et al, 2021)。 研 究 发 现 ， 对 于 正确 
设 定 的 属性 层级 关系 ， 即 结构 模型 完全 正确 设 定时 ， 在 样本 量 大 于 或 等 于 3000 条 件 下 这 三 
种 方法 均 有 较 好 的 95%CI 覆盖 率 ; 当 属性 之 间 存 在 层级 关系 但 使 用 饱和 CDM 估计 时 ， 即 
结构 模型 参数 存在 部 分 元 余 情 景 下 ， 对 于 允许 存在 的 结构 参数 (permissible structural 


parameter), 即 根据 属性 层级 关系 在 理论 上 不 等 于 0 的 结构 参数 , XPD 和 Obs 方法 计算 的 SE 


ARIEL, MER 


F 存 在 的 结构 参数 (impermissible structural parameter), ВР И 


于 0 的 结构 参数 ，XPD 方法 计算 的 结构 参数 的 SE 表现 较 好 (Liu et al., 2021)。 


准 


过 程 ， 具 有 


级 关系 是 一 个 非常 具有 挑战 性 的 过 程 (Hu & Templin, 2020; Liu et al., 2021; Ma & Xu, 2021; 


确 


地 识别 与 验证 CDM : 


的 


FB: 


HE 


层级 关系 能 够 使 研究 者 深入 地 了 解 被 试 作答 的 心理 


重要 的 理论 与 实践 价值 (Leighton etal., 2004)。 然 而 ， 实 践 中 预先 正确 


设 定 属性 


Templin & Bradshaw, 2014; Wang &Lu,2021)。 如 果 认 知 诊断 测验 中 存在 属性 层级 关系 ， 使 用 
饱和 CDM 拟 合作 答 反 应 数据 ， 相 应 的 结构 参数 近似 等 于 0。 即 ， 饱 和 CDM 的 结构 参数 能 


提供 属 


步 提出 ， 结 构 


在 多 数 情 况 下 ， 可 以 使 有 
是 这 些 解析 性 方法 主要 有 两 个 缺点 。(1) 需 要 信息 矩阵 J 
(2011, 2019) 发 现 , CDM 中 的 边界 值 问 题 (boundary problems), 会 导致 使 ) 
一 协 方差 矩阵 时 存在 非 正 定 问题 。 关 于 边界 值 及 


性 


层级 是 否 存在 的 证 据 (Liu et al., 2021; Templin & Bradshaw, 2014). Liu 等 人 (2021) 初 
参数 的 SE 已 知 时 ， 可 以 使 用 z 统 计量 探索 属性 层级 关系 ， 具 体 表 达 式 为 ， 
7) 
2 1 
^^ SE($) s 


2 


部 分 详 


求 逆 计 


如 ， 第 5 BEA SUI 


线 元 素 小 于 0， 而 导致 SE IETS 


y? 


在 公式 () 中 方 表示 结构 参数 估计 值 ， SEE( 放 对 


阐述 。(2) 需 要 方差 一 协 方差 人 
模型 参数 的 SE 无 法 计算 。 然 而 ， 在 实践 中 由 于 计算 误差 的 存在 ， 可 


REBUY SE. 


H XPD. Obs 或 Sw 方法 有 效 地 计算 CDM 中 模型 参数 的 ЅЕ, 但 


的 方差 一 协 方差 矩阵 ; 


的 SE 无 法 计算 ; 如 果 出 现 情形 (2)， 相 应 的 模 
在 的 以 上 问题 ， 限 制 了 其 理论 发 展 及 实践 应 用 。 


除 


(Nonparametric Bootstrap, NPB)。PB 以 及 NPB 是 一 种 应 用 广泛 (例如 ，2019 年 1 
学 报 》 上 的 论文 中 至 少 有 20 篇 论文 
E. 与 解析 法 信息 和 矩阵 不 同 ，PB 以 及 NPB 不 需要 有 较 强 的 前 
:。 这 类 方法 是 通过 三 个 步 又 进行 的 。 第 一 步 是 根据 观察 数据 集 获 


数据 集 估计 模型 参数 。 以 上 两 步 重 复 进 行 


PERE (Я 
(computer-intensive)、 费 时 的 方法 


提 假 设 以 及 大 量 的 公式 推导 


的 某 个 或 某 些 元 素 小 于 0(Liu& Maydeu-Olivares, 2014)。 例 


E 阵 的 对 角 线 元 素 大 于 0, 1 


E € (positive definiteness)。DeCarlo 


ЕРЕ Л 2 


其 可 能 导致 的 信 ， 


S 


6 阵 非 正 定 问 题 将 在 第 2 


FE 数 据 分 析 中 基于 Obs 的 方差 一 协 方差 矩阵 中 第 2 个 结构 参数 对 应 的 对 角 


I 果 小 于 0 则 会 导致 相应 的 


au 
能 会 


导致 使 用 信息 矩阵 


。 这 也 就 意味 着 ， 如 果 出 现 情形 (1)， 则 全 部 的 模型 参数 


解析 法 外 ， 男 一 类 可 用 于 计算 SE 及 CI 的 方法 是 


& Tibshirani, 1993)， 最 常见 的 有 参数 化 自助 法 (Parametric Bootstrap, PB) 与 非 参 数 化 


型 参数 的 SE 无 法 计生 


。 解 析 法 信息 矩阵 所 存 


到 了 自助 法 )、 


`4 


3 


自助 法 (Davison & Hinkley, 1997; Efron 


自助 法 


PA 


至 2021 年 8 月 


通用 性 强 ， 但 计算 密集 


， 直 到 达到 


预先 设 定 的 重 抽样 次 数 。 第 三 步 , 根据 每 次 重复 获得 的 模型 参数 估计 值 , 计算 SE 以 及 CI。 PB 
与 NPB 的 不 同 之 处 在 于 : PB 是 先 通 过 观察 数据 集 估计 获得 模型 参数 , 再 使 用 模型 参数 模拟 生 
成 重 采样 数据 集 ; NPB 则 是 通过 有 放 回 取样 的 方式 直接 从 观察 数据 集中 取样 。 尽管 研 究 者 认 
为 自助 法 可 以 用 于 计算 CDM 中 的 SE 及 CI (Ma & de la Torre, 2020b)， 且 理论 上 可 以 较 好 地 解 
决 解析 法 信息 矩阵 在 特定 条 件 下 无 法 计算 的 问题 , 然而 其 估计 的 准确 性 仍 缺 乏 研究 。 作 为 一 
种 计算 密集 型 方法 , 计算 量 大 、 耗 时 长 的 缺点 不 仅 限 制 了 PB 与 NPB 的 理论 研究 , 也 造成 了 实 
践 应 用 的 困难 。 举 例 而 言 ， 在 PB 与 NPB 的 应 用 中 ,进行 重 抽样 时 ， 如 果 样本 量 过 少 可 能 会 影 
响 到 自助 法 的 准确 性 ， 如 果 抽 样 过 多 会 因 计算 量 增 大 而 影响 效率 。 目 前 ， 重 抽样 次 数 的 选择 
问题 仍 存在 争议 (例如 ，Bai et al., 2016; Efron & Tibshirani, 1993; Guo & Wind, 2021; Hayes, 
2009, 2018; Lai, 2021)。 另 外 ，PB 与 NPB 在 不 同情 景 中 估计 CDM 的 模型 参数 的 SE 及 C7 的 表现 
也 需要 进一步 探讨 。 随 着 多 线程 、 并 行 调度 等 计算 技术 的 发 展 ， 并 行 计 算 技术 被 逐步 用 于 计 
算 密集 型 方法 研究 (Denwood, 2016; Khorramdel etal.,2019)。 仅 以 自助 法 为 例 ，Zhang 和 Wang 
(2020) 开 发 了 使 用 并 行 自助 法 的 R 软 件 包 bmem, 并 探讨 了 其 在 统计 功效 分 析 中 的 应 用 (Zhang， 
2014); 线性 混合 效应 模型 软件 包 1me4 (Bates et al., 2015) 也 提供 了 并 行 计算 的 自助 法 ，Jiang 
x 等 人 C021) 以 此 为 基础 探索 了 使 用 自助 法 计算 概 化 系数 的 Cy 估 计 值 问题 。 

本 文 要 解决 的 主要 问题 有 : (1) 借 鉴 以 往 研究 中 的 并 行 自 助 法 计算 技术 , 开发 适用 于 CDM 


的 并 行 参数 化 自助 法 (parallel Parametric Bootstrap, pPB) 和 和 并行 非 参数 化 自助 法 (parallel 


S 
B 


m 


Nonparametric Bootstrap, pNPB), 提高 CDM 中 PB 与 NPB 的 计算 效率 .。 (2) 系 统 探 讨 pPPB 与 pDNPB 
在 估计 CDM 模 型 参数 的 SE 及 C1 时 的 表现 。 正 如 本 文 将 要 呈现 的 一 样 ，pPB 与 pDNPB 是 一 类 简 
易 、 可 行 的 方法 ， 不 仅 能 有 效 解决 CDM 中 SE 与 C1 理论 研究 中 的 重要 问题 ， 而 且 能 有 效 提升 
实践 应 用 中 的 计算 效率 。 

接 下 来 ， 本 文 将 首先 说 明 解 析 法 信息 矩阵 计算 SE 时 存在 的 问题 ， 然 后 详细 介绍 新 提出 
的 pPB 与 pNPB 方法 。 第 4 部 分 是 模拟 研究 , 分 别 探讨 CDM 完全 正确 设 定 以 及 存在 属性 层 
级 关系 条 件 下 这 两 个 方法 的 表现 。 第 5 部 分 是 实证 数据 分 析 ， 主 要 用 于 说 明 及 展示 pPB 与 
pNPB 在 估计 CDM 模型 参数 的 SE 时 的 作用 与 价值 。 最 后 是 讨论 与 结论 。 
2 解析 法 信息 矩阵 及 其 存在 的 问题 


本 部 分 以 同一 链接 (identity link) 下 的 G-DINA (Generalized Deterministic Input Noisy 


Output “AND” gate; de la Torre, 2011) 为 例 ， 分 别 呈 现 三 种 解析 法 信息 和 矩阵 并 痔 述 这 些 方法 在 


计算 CDM 模型 参数 的 SE 及 CI 时 可 能 会 遇 到 的 矩阵 非 正定 , 以 及 方差 一 协 方差 矩阵 对 角 线 


元 素 可 能 小 于 0 等 问题 。 
2.4 饱和 的 CDM 


假设 在 一 份 认 知 诊断 测验 中 有 N 个 被 试 ，7 个 项 目 ， 开 个 属性 , 且 属 性 及 项 目 均 为 二 级 


计 分 ，NxJ 维 项 目 反 应 矩阵 记 为 xe (x), Jx K Q FEMICAQ=(q,} 。 在 饱和 的 G- 


DINA 模型 中 ， 被 试 n 正确 作答 项 目 j 的 概率 为 ， 


K K-1 K 
PX, = 1 | 09; ) = Ajo + У 4,099 + У > Aap a 49 y ass (2) 
k=l k=l k=k+1 ` 
ДИН, а, = (sso) 是 第 个 被 试 的 属性 掌握 模式 ，q, = (азак) 是 Q 矩阵 中 所 定义 


的 正确 作答 项 目 所 需要 的 属性 ，%, (usus) 是 项 目 j 的 所 有 参数 。 对 于 饱和 G- 


— 


DINA 模型 进行 恰当 约束 ， 可 以 获得 多 种 特殊 模型 。 


为 便于 理解 及 行文 , 以 K =2, q; =(LD а, - (L1) 为 例 。 饱 和 G-DINA 的 项 目 反应 函 


数 可 以 表达 为 ， 


Р(х, =, ) = Àj Aug t 446 t^ (3) 


71,02) 724412) 


其 中 ， 2, 为 截 距 参 数 , 表示 没有 掌握 项 目 所 需 的 任何 属性 仅 赁 猜测 正确 作答 项 目的 概率 ， 


Àj ay BUA oy 分别 是 对 应 于 第 一 个 属性 (wm ) 和 第 二 个 属性 (wa ) 的 主 效应 参数 ， 1 ss 是 这 


两 个 属性 的 交互 效应 。 
当 玉 = 2 且 属 性 层级 关系 不 存在 时 ， 所 有 可 能 的 属性 掌握 模式 可 以 表示 为 ， 


qa = ; = 


0 0 
1 0 
a, 0 1 
1 1 


a, 


BI L=2* =4。 使 用 同一 链接 函数 ， 可 以 将 以 上 用 于 描述 属性 掌握 模式 分 布 的 结构 参数 


1 7 (7,.....7,) RRA, = p(o,) 。 因 为 所 有 的 属性 掌握 模式 概率 之 和 等 于 1， 所 以 将 最 后 一 


个 结构 参数 约束 为 刀 -1-Y m А 
22 带 有 属性 层级 关系 的 CDM 
当 测 验 所 测 属性 之 间 存 在 层级 关系 时 ， 对 饱和 模型 (如 G-DINA) 的 结构 参数 以 及 项 目 参 


数 加 以 适当 约束 ， 可 获得 HCDM (Templin & Bradshaw, 2014). КЁ ЫК =2，q, -(L1) ， 


a, - (11) 为 例 , 且 假 定 这 两 个 属性 之 间 存 在 线性 层级 关系 : 只 有 掌握 才能 掌握 x, „ЖА, 


а, 0 0 
a -|a,|-|1 0 
a, 1 1 


层级 关系 约束 ， 饱 和 结构 模型 中 的 第 三 种 属性 掌握 模式 a, 不 存在 ， 即 


所 有 可 能 的 属性 掌握 模式 为 ， 


[E 


由 于 属性 


ji=p(o)=0。 在 当前 的 例子 中 ，HCDM 的 项 目 反应 函数 可 以 表示 为 ， 


P(x, -l|e,.q; ) = 56 * Ajay * 202) (4) 


可 以 发 现 ， 如 果真 模型 是 HCDM， 但 使 用 饱和 G-DINA 模型 估计 参数 时 ， 某 些 结构 参数 ( 例 


如 ， 力 ) 以 及 项 目 参数 (例如 ， 饱 和 G-DINA 中 的 oa) 的 真 值 都 等 于 0， 在 这 种 情况 下 会 导 


St CDM 中 的 一 些 模型 参数 元 余 。 在 接 下 来 的 部 分 中 ,参考 以 往 研究 中 的 表述 (Liu, 2018; Liu 
et al.,2021)， 将 真 值 为 0 的 参数 统称 为 非 允许 存在 的 参数 ， 真 值 不 等 于 0 的 参数 统称 为 允许 
存在 的 参数 。 

2.3 解析 法 信息 矩阵 及 其 不 足 

在 一 定 的 正则 性 假设 下 (Bishop et al., 2007), CDM 模型 参数 的 极 大 似 然 估 计 值 向 量 


1 - (Var) 与 真 值 向 量 Y 的 差 ， 服 从 均值 为 0 向 量 、 方 差 _ 协 方差 矩阵 为 了 的 多 元 正 态 分 


布 (Liu et al., 2016), 


VN- —9 N (9.17) (5) 


公式 (3) 中 , 2, 表示 的 是 使 用 模型 参数 真 值 以 及 对 单个 被 试 的 作答 反应 向 量 求 期 望 ( 即 所 有 可 


能 的 作答 反应 模式 ) 而 计算 的 期 望 Fisher 信息 矩阵 (Liu et al., 2016; Liu, Xin et al., 2019)。 但 由 
于 模型 参数 真 值 在 实践 中 是 未 知 的 , 并 且 所 有 可 能 的 作答 反应 模式 会 随 着 项 目的 数量 呈现 


BUM, АШТ, 只 具有 理论 价值 ， 无 法 应 用 于 实践 (Liu, Xin etal., 2019). 


针对 工 ; 的 不 足 , 研究 者 提出 使 用 模型 参数 估计 值 ? BRAE yo 使 用 被 试 的 观察 作答 反 


MIERE x 代替 单 个 被 试 的 作答 反应 向 量 的 期 望 ， 进 而 开发 出 XPD. Obs 以 及 Sw AEBE(Liu, 


Xin et al., 2019; Philipp et al., 2018; XIE% 等 , 2016)。 使 用 观察 数据 对 数 似 然 函 数 L | x) 关 


于 模型 参数 y = (ay) 的 一 阶 导向 量 交叉 相 乘 而 计算 的 XPD 矩阵 的 表达 式 为， 
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[aL | x) OL(7 | x) д0(% | x) 20(7 | x) 
дА, дА, a дд дт, 
Te : А : (6) 
OL(Y|x) O((|x) | OLY x) ó/(#|x) 
| Om. дА On, On, 


根据 观察 数据 对 数 似 然 函数 关于 模型 参数 的 二 阶 偏 导 而 计算 的 Obs 矩阵 可 表示 为 (Liu, Xin 


et al., 2019; ХР 等 , 2016), 


| “(4 |х) (|х) | 
0404 ^  O0A0m,, 
Lobe =— I "e : (7) 
DUGD ou» 
| дт 10А 07,07, | 


需要 特别 说 明 的 是 , Obs 矩阵 中 的 元 素 也 可 以 等 价 地 表达 为 (Liu & Maydeu-Olivares, 2014; Liu, 


Xin et al., 2019), 


FIX)  Of(q|x) OL(F| x) NS p, Of(x,) (8) 
Oy Oy, ду, Oy, v f(x) дуду, 


在 公式 (8) 中 ，y 与 y, 分 别 表示 任意 一 个 项 目 参 数 (44) 或 结构 参数 (7 ); Vo 是 作答 反应 矩阵 x 


中 独特 反应 模式 的 数量 ，p, f(x.) 分 别 代表 第 v 个 观察 到 的 独特 作答 模式 所 占 的 实际 比例 


以 及 期 望 。Sw 矩阵 因 其 形状 而 得 名 ， 表 达 式 为 ， 
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Ls = Top Lop (9) 
可 以 发 现 Sw 矩阵 在 计算 过 程 中 需要 Obs 及 XPD 矩阵 的 参与 。 
基于 以 上 陈述 ， 接 下 来 将 重点 曾 述 解析 法 信息 矩阵 的 不 足 。 首 先 ， 边 界 值 问题 会 对 解析 
法 信息 矩阵 造成 严重 影响 。 在 CDM 中 ， 至 少 有 两 种 情形 会 导致 边界 值 问 题 ， 使 得 无 法 使 用 
解析 法 信息 矩阵 计算 SE 或 者 使 SE 变 大 (DeCarlo, 2011, 2019)。 一 种 可 能 的 情况 是 : 由 于 项 


目 参数 4 ,表示 的 是 截 距 项 参数 ， 其 取 值 范围 介 于 [0,1] 之 间 。 然 而 ， 在 4。 的 真 值 等 于 0 或 


1 的 极端 情况 下 ， 由 于 真 值 在 参数 空间 的 边界 上 ， 久 ,的 估计 值 有 较 大 可 能 会 非常 接近 0 或 


1， 造 成 项 目 参 数 的 边界 值 问题 。 另 一 种 可 能 的 情况 是 : CDM 中 有 非 允许 存在 的 结构 参数 。 
= CDM 中 存在 属性 层级 关系 但 使 用 饱和 模型 估计 的 时 候 , 不 可 避免 的 有 非 允许 存在 的 项 目 
参数 及 结构 参数 。 因 为 结构 参数 的 取 值 区 间 为 [0,1]， 非 允许 存在 的 结构 参数 的 真 值 恰 好 落 在 
参数 空间 边界 上 ， 其 估计 值 可 能 会 非常 接近 0， 例如 ，10“ 。 边 界 值 问题 会 造成 解析 法 信息 
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S= 


AB EAS XE pen >p ËE(Liu etal., 2021)。 其 次 ， 如 果 非 允许 存在 的 结构 参数 的 估计 值 偏离 
其 真 值 0， 那 么 这 个 估计 值 是 有 偏 的 ， 不 再 符合 公式 (5) 中 的 前 提 假 设 ， 因 此 对 XPD. Obs 以 
及 Sw 矩阵 的 计算 会 造成 不 良 影响 。 第 三 ， 可 以 发 现 ，Obs 和 矩阵 等 于 XPD 和 矩阵 减 去 公式 (8) 
中 最 右 侧 部 分 的 表达 式 。 但 是 由 于 计算 误差 的 存在 ，Obs 算 阵 中 对 角 线 元 素 可 能 会 小 于 0， 
对 应 模型 参数 的 SE 无 法 计算 ， 这 是 Obs 和 矩阵 的 一 个 不 足 (Liu & Maydeu-Olivares, 2014). 
3 并 行 非 参数 化 及 参数 化 自助 法 
3.1 并 行 非 参数 化 自助 法 

NPB 的 基本 思想 是 模拟 从 总 体 中 抽取 样本 的 方式 而 计算 模型 参数 的 SE。 假 定 原始 作答 
反应 矩阵 x 是 一 个 “总 体 ”， 采 取 有 放 回 取样 的 方式 获得 新 的 “样本 (被 称 为 重 抽样 样本 ,， 记 作 


一 x )。 根 据 x 计算 模型 的 参数 估计 值 向 量 9 。 依 次 循环 B 次 ， 最 终 计算 B TRY 的 标准 差 而 


获得 模型 参数 估计 值 Y 的 SE. АЛП, NPB 存在 运行 效率 低 的 问题 (Ma & de la Torre, 2020b)。 


本 研究 新 提出 的 pNPB 的 具体 实施 步骤 如 下 : 

步骤 (1)， 确 定 重 抽样 的 次 数 ， 设 定 拟 合 模 型 ， 检 测 CPU 的 核心 数量 ， 据 此 创建 并 行 
运算 环境 中 相应 数量 的 副本 程序 。 

WRO), 并 行 抽样 阶段 。 在 运算 环境 的 每 个 副本 程序 中 独立 进行 如 下 操作 : (a) 从 原始 作 


> 答 数 据 x 中 采取 有 放 回 取样 方式 获得 新 的 样本 x ; (b) 根 据 预 先 设 定 的 CDM 使 用 R 语言 中 
>< 的 GDINA (Ma & de la Torre, 2020b) 软 件 包 计 算 模 型 参数 估计 值 = (i.i) 。 在 每 个 副本 程 
Е Я Ит (2) 5 (0) EESIBA АС BE BJ s РЕК B. 

о ERB), fd B RERI ТИЧНО SB Y. ТЕО 3 BJ ATT 


差 和 矩阵。 将 对 角 线 元 素 开 平方 ， 可 以 获得 模型 参数 的 SE. 


3.2 并 行 参 数 化 自助 法 


PB 的 基本 思想 是 使 用 模型 的 参数 估计 值 了 作为 “总 体 参数 "， 并 使 用 这 些 参数 模拟 生成 


新 B 个 重 抽 样 “样本 "x ， 通 过 这 些 “ 样 本 ”估计 基于 重 抽样 的 模型 参数 估计 值 耻 。 


本 研究 新 提出 的 pPB 的 实施 步骤 如 下 : 
步骤 (1)， 除 执行 pPNPB 中 的 步骤 (1) 外 ,还 需 根 据 原始 作答 数据 x 及 预先 指定 的 CDM fih 


иена 


IRO), 参数 化 并 行 抽样 阶段 。 在 运算 环境 的 每 个 副本 程序 中 独立 进行 如 下 操作 : (a) 根 
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据 结构 参数 全 模拟 生成 每 个 被 试 的 属性 掌握 模式 ，(b) 根 据 被 试 属性 掌握 模式 及 项 目 参数 入 


Iu 


模拟 生成 被 试 在 所 有 项 目 上 的 作答 反应 抢 阵 x ; (ORB ABRE БЕЛЛЕ x^ 及 预先 设 定 的 


模型 使 用 了 及 语言 中 的 GDINA (Ma & de la Torre, 2020b) 软 件 包 重 新 估计 获得 模型 的 项 目 及 结 


构 参数 分 = (ALA) 。 并 行 运行 每 个 副本 程序 ， 重 复 执行 (8)、(b) 与 (9) 直 到 达到 预先 设 定 的 重 


抽样 次 数 。pPB 中 的 步 又 (3) 与 pNPB 中 的 步骤 (3) 相 同 ， 不 再 更 述 。 
相对 于 解析 法 信息 矩阵，pNPB 以 及 pPB 的 优点 在 于 通用 性 强 ， 不 需要 繁琐 的 公式 推 
T 不 需要 严格 的 前 提 假 设 (如 ， 模 型 参数 估计 值 渐 近 正 态 等 )， 不 涉及 矩阵 求 着 ， 受 边界 值 


问题 影响 较 小 , 尤其 适合 CDM 中 有 非 允 许 存在 结构 参数 情形 下 SE 及 CI 的 计算 ; 模型 参数 


的 方差 一 协 方差 矩阵 仅 需 好 个 9 向 量 即 可 计算 , 对 角 线 元 素 不 会 出 现 小 于 0 的 情况 。 而 且 ， 


与 传统 的 NPB 以 及 PB 相 比 ， 本 研究 提出 的 pNPB 以 及 pPB 具有 运行 速度 快 ， 效 率 高 等 优 
点 。 这 使 得 本 研究 可 以 首次 实现 在 CDM 中 较为 充分 、 系 统 地 探讨 使 用 pNPB 以 及 pPB 计算 


的 SE 及 CI 的 表现 。 


4 模拟 研究 
4.1 研究 目的 

CDM 完全 正确 设 定 或 存在 边界 值 问 题 时 ，pNPB 以 及 pPB 的 表现 是 本 研究 重点 关注 的 
问题 。 模 拟 研究 的 主要 目的 有 两 个 : (1) 探 讨 在 理想 条 件 下 ， 即 模型 完全 正确 设 定时 ，pNPB 
All pPB 在 估计 SE 以 及 CI 时 的 表现 ， 并 与 解析 法 XPD. Obs 和 Sw 的 表现 进行 比较 。 为 使 
结果 具有 较 好 的 一 般 性 ,数据 生成 模型 及 拟 合 模型 均 采用 同一 链接 下 的 饱和 G-DINA 模型 。 
(2) 探 讨 当 属性 层级 关系 存在 时 ， 即 当 模 型 的 结构 参数 及 项 目 参数 均 存在 非 允许 存在 的 参数 
时 ， 这 两 种 方法 在 估计 SE 及 CI 时 的 表现 。 需 要 特别 说 明 的 是 ， 属 性 间 存 在 层级 关系 时 ， 
XPD. Obs 和 Sw 很 容易 出 现 无 法 求 逆 的 问题 (Liu et al., 2021)， 因 此 难以 在 完全 相同 的 模拟 
条 件 下 比较 自助 法 与 解析 法 的 表现 。 

检索 相关 文献 (例如 ，Bai et al., 2016; Efron & Tibshirani, 1993; Guo & Wind, 2021; Hayes, 
2009, 2018; Lai, 2021) 发 现 ， 研 究 者 对 于 重 抽样 次 数 的 设置 有 较 大 争议 ， 因 此 如 何 找到 恰当 
的 重 抽样 次 数 也 是 模拟 研究 关注 的 问题 。 


4.2 研究 方法 


本 研究 使 用 GDINA (Ma & de la Torre,2020b) 软 件 包 估计 模型 参数 ， 参 考 bmem (Zhang & 


Wang, 2020) 及 Ime4 (Bates et al., 2015) 软 件 包 中 开源 代码 自 编 pNPB 以 及 pPB 代码 ， 解 析 法 
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HABE XPD. Obs 和 Sw 估计 代码 来 自 Liu 等 人 (2021)， 感 兴趣 的 研究 者 可 以 联系 作者 获 
取 。 为 保证 各 条 件 下 CDM 模型 参数 具有 可 识别 性 ， 尤 其 是 属性 层级 条 件 下 的 模型 参数 的 可 
识别 性 (Gu & Xu 2019, 2020)， 本 研究 参考 Ma 和 Хи (2021) 的 实验 设计 使 用 图 1 中 呈现 的 Q 
矩阵 。 另 外， 为 清晰 地 探讨 本 研究 中 各 自 变 量 对 pNPB 以 及 pPB 的 影响 ， 假 定数 据 生 成 模 
型 中 每 个 条 件 下 的 结构 参数 相等 , 主 效应 及 交互 效应 相等 ， 以 消除 模型 参数 大 小 对 实验 结果 
的 影响 。 使 用 云 主机 运行 模拟 程序 ，CPU 型 号 为 英特尔 19-10980XE, 18 核 36 线程 ,每 种 实 


JG TK PFLAG ШЫ А = 500 次 以 获得 稳定 的 模拟 结果 。 


1 2 3 4 5 6 7 8 9 1011 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 
项 


图 1 模拟 研究 中 使 用 的 Q 矩阵 


具体 而 言 ， 数 据 生 成 模型 有 两 种 : 饱和 G-DINA 及 存在 层级 关系 (w — a, , a, — o) 
HCDM。 数 据 生成 模型 为 饱和 G-DINA It, SE 估计 方法 有 五 种 : XPD. Obs. Sw. pNPB 以 
及 pPB; 数据 生成 模型 为 存在 属性 层级 关系 的 HCDM 时 ，SE 估计 方法 有 两 种 ，pNPB 以 及 
pPB. pNPB 以 及 pPB 方法 的 重 抽样 次 数 有 四 个 水 平 : 200、500、3000 及 5000 次 。 样 本 量 
有 两 个 水 平 : 1000 及 3000。 项 目 质 量 有 三 个 水 平 : 高 质量 (P(0)=0.1，P(1)=0.9)、 中 等 
质量 ( P(0)=0.2，P(1)=0.8)、 低 质量 (P(0)=0.3，P(1)=0.7), 其 中 P(0) 表 示 仅 凭 猪 测 答 
对 的 概率 ，P(1) 表 示 掌 握 项 目 所 需要 的 全 部 属性 的 被 试 正确 作答 该 项 目的 概率 。 所 有 条 件 
下 均 使 用 饱和 G-DINA 模型 估计 模型 参数 , 也 就 是 当 数 据 生 成 模型 同样 为 饱和 G-DINA 时 ， 

模型 参数 是 完全 正确 设 定 的 ， 当 数据 生成 模型 为 HCDM 时 ， 模 型 中 存在 一 些 真 值 为 0 的 项 
目 参 数 与 结构 参数 ， 此 时 模型 参数 是 元 余 的 。 

4.3 评价 指标 


使 用 偏差 (BIAS) 以 及 95%CI 78 sii S VIT SE 估计 方法 的 表现 。 模 型 参数 估计 值 的 95%CI 


2 


95%CI = [ + quus SE J 


如 果 模 型 参数 的 95%CI 在 区 间 | 0.95 +1.96, /0.95(1—0.95)/R | 内 ， 那 么 可 以 认为 区 间 估计 是 


准确 的 ， 其 中 SE(7) ase XPD, Obs. Sw. pNPB 或 pPB 计算 的 SE。 偏 差 的 计算 
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公式 为 : 
> [sE(#,)- SE(>)] 


BIAS = -= 
R 


其 中 SE(y) 表 示 R=500 次 重复 中 获得 的 500 个 模型 参数 估计 值 向 量 的 标准 差 。 


N=1000 N=1000 N= 1000 N= 1000 N=3000 N=3000 N= 3000 N = 3000 


B - 200 B =500 B-3000 В-=5000 B -200 B - 500 B-3000 X B-5000 
1.00- 
Ете 
0.90 - = 
El 
0.85- ж 
ш 
0.80 - 
0.75- 


1.00 - 


Eras ug 


Lugo nx roc m cc an os dcs ocn tnc ee dr i su mak ma mic i sa Sk wau Ns жан dl saa om i 
1 316191 1316191 1316191 1316191 1 316191 1316191 1316191 1316191 


项 目 参 


图 2 CDM 模型 参数 完全 正确 设 定时 ， 基 于 pNPB 5 pPB 的 项 目 参数 的 95%C1 覆盖 率 
4.4 模拟 结果 


4.4.1 CDM 模型 参数 完全 正确 设 定 条 件 下 的 实验 结果 


SE 

ž 估计 

a 方法 

zi ^ pNPB 
+ pPB 


图 2 与 图 3 分 别 呈 现 的 是 CDM 完全 正确 设 定时 ， 使 月 


H pNPB 以 及 pPB 计算 的 项 目 参 


Ж 95%СТ #8 ты Ж М SE 的 BIAS。 在 高 质量 项 目 条 从 


图 中 灰 线 的 理论 范围 内 ，BIAS 能 很 好 地 接近 于 0; 


下 ， 绝 大 多 数 项 目 参数 的 95%C7 都 落 在 
并 且 随 着 样本 量 的 增加 这 两 项 评价 指标 


均 在 变 好 。 在 中 等 质量 项 目 条 件 下 ，N =1000 时 尽管 有 少许 项 目 参 数 的 95%СТ 落 在 理论 范 


量 项 目 条 件 ， N 23000 RFF, JEU B 2 500 时 ， 


ЎА SE 的 BIAS 稍 有 波动 ， 但 绝 大 部 分 表现 较 好 ， 这 两 个 评价 指标 的 波动 明显 高 于 高 质 


绝 大 多 数 项 目 参 数 的 95%CI 覆盖 率 以 及 


SE 的 BIAS 控制 均 有 好 的 表现 。 在 低 质 量 项 目 条 件 下 ， 使 用 pNPB 以 及 pPB il $ 


的 项 目 参 


数 的 95%СТ # tin ЖЕ EA SE 的 BIAS 表现 差异 明显 : ТЕ N 21000 的 条 件 下 ， 


EJ 


H pNPB 计算 


的 项 目 参数 的 SE 绝 大 部 分 在 理论 区 间 之 上 且 倾 向 于 高 佑 SE， 使 用 pPB 计算 的 项 目 参数 的 
SE 绝 大 部 分 在 理论 区 间 之 下 且 会 倾向 于 低估 SE; 另外 可 以 发 现 随 着 样本 量 的 增 大 ， 在 
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N =3000 Att PIAA BM 95%СТ 覆盖 率 及 SE 的 BIAS 的 表现 均 在 变 好 ， 且 pPB 方法 的 表 
现 优 于 pNPB。 可 以 发 现 , 当 重 抽样 次 数 B>500 时 , 相同 条 件 组 合 下 的 模拟 结果 具有 高 一 致 


性 ， 尤 其 是 =3000 与 B=5000 两 者 之 间 没 有 发 现 明显 差异 。 


N=1000 N= 1000 N= 1000 N=1000 N= 3000 N=3000 N=3000 N = 3000 
B =200 B=500 B =3000 B= 5000 B= 200 B =500 B= 3000 B = 5000 
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3 CDM 模型 参数 完全 正确 设 定时 ， 基 于 pNPB 与 pPB 的 项 目 参数 的 SE 的 BIAS 


图 4 与 图 $ 呈现 的 是 CDM 完全 正确 设 定时 ， 基 于 解析 法 XPD、Obs 与 


Sw 的 项 目 参数 


的 95%CI JE п Ж М SE 的 BIAS。 可 以 发 现 ， 高 质量 以 及 中 等 质量 项 目 条 件 下 的 项 目 参数 的 
SE 有 好 的 表现 ; N =1000 时 ,Sw 和 矩阵 的 表现 略微 优 于 XPD 与 Obs; 当 样 本 量 增加 到 NN =3000 
Int, XPD. Obs 以 及 Sw 矩阵 的 表现 均 在 变 好 。 对 比 高 质量 以 及 中 等 质量 项 目 条 件 下 XPD. 
Obs、Sw、pNPB 以 及 pPB 的 模拟 结果 ， 可 以 发 现 多 数 情况 下 Sw 以 及 Obs 矩阵 的 表现 略微 
优 于 其 他 方法 。 低 质量 项 目 条 件 下 ，XPD、Obs 以 及 Sw 矩阵 计算 的 项 目 参数 的 SE 的 表现 
受到 较为 严重 的 影响 ，N =1000 If, XPD 与 Obs 的 95%CT 履 盖 率 绝 大 部 分 在 理论 区 间 之 下 
且 会 倾向 于 低估 SE, Sw 的 95%C7 覆盖 率 绝 大 部 分 在 理论 区 间 之 上 且 会 倾向 于 高 估 SE; 


N=3000 时， 基于 XPD、Obs 以 及 Sw 的 9596CI 覆盖 率 大 部 分 在 理论 区 间 


内 。 本 研究 还 发 


现 ， 低 质量 项 目 条 件 下 的 BIAS 结果 中 ， 基 于 XPD 及 Sw 方法 的 项 目 参 数 的 SE 的 结果 分 别 


有 9 个 及 86 个 在 区 间 [-0.2, 0.2] 之 外 ; 检查 发 现 ， 基 于 XPD 及 Sw 方法 计生 


的 SE 中 有 数值 


极端 偏离 正常 值 的 结果 (例如 , SE 估计 值 大 于 1000)。 这 也 就 是 说 , 在 低 质量 : 


mH H. N 21000 


条 件 下 ，XPD K Sw 方法 的 表现 不 稳定 。 综 合 对 比 低 质量 项 目 条 件 下 ，XPD、Obs、Sw、 
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pNPB 以 及 pPB 的 表现 ， 可 以 发 现 Obs 略 优 于 其 他 方法 。 


N=1000 N= 1000 N=1000 N = 3000 N= 3000 N =3000 
XPD Obs Sw XPD Obs Sw 
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— —— ee Sie E- 
Te Waste Grose эз 


— "n TACEN. 
i 0.95- VETERE EZ 


aie Ser 7 
iv Sia 


== 


' TT tee эра) ' eee Lap za, ' 
1 25 49 73 97 1 25 49 73 97 1 25 49 73 97 1 25 49 73 97 12 


1 ' ' eee cet 
5 49 73 97 1 25 49 73 97 


项 目 参数 


图 4 CDM 模型 参数 完全 正确 设 定 时 ， 基 于 XPD. Obs 5 Sw 的 项 目 参数 的 95%CI 覆盖 率 


N=1000 N=1000 N=1000 N=3000 N =3000 N=3000 
XPD Obs Sw XPD Obs Sw 


BIAS 
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项 目 参数 


图 5 CDM 模型 参数 完全 正确 设 定时 ， 基 


zi 


F XPD. Obs 5 Sw 的 项 目 参数 的 SE 的 BIAS 
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图 7 CDM 模型 参数 完全 正确 设 定时 ， 基 于 pNPB 5 pPB 的 结构 参数 的 SE 的 BIAS 


SE 
估计 
方法 
^ pNPB 
+ pPB 


图 6 CDM 模型 参数 完全 正确 设 定时 ， 基 于 pNPB 与 pPB 的 结构 参数 的 95%CI 覆盖 率 


SE 
估计 
方法 
A pNPB 
+ pPB 


MAK SE 的 BIAS。 可 以 发 现 ， 在 高 项 目 质量 条 件 下 ， 使 用 pNPB 以 及 pPB ilf 


图 6 与 图 7 分别 呈现 的 是 CDM 完全 正确 设 定时 ， 基 于 自助 法 的 结构 参数 的 95%CI 78 


的 结构 参 


数 的 SE 均 有 好 的 表现 , 所 有 结构 参数 的 95%C7 履 盖 率 都 落 在 图 中 灰 线 的 理论 范围 内 或 边界 
E, BIAS 几乎 完全 与 0 重合 。 在 中 等 质量 项 目 条 件 下 ， 当 N=1000 时 ， 尽 管 结构 参数 的 


95%СТ 的 波动 明显 增 大 ， 但 是 大 多 数 结构 参数 的 SE 都 有 好 的 表现 ， 且 BIAS 波动 也 很 小 ; 


当 N=3000 时 ， 结 构 参 数 的 SE 的 两 种 计算 方法 都 有 好 的 表现 。 在 低 质量 项 目 条 作 


FP. ZUM 


参数 的 95%CI T8 s 10 BIAS 的 表现 受到 严重 影响 ， 当 N 21000 时 , 绝 大 多 数 使 用 pNPB 


计算 的 结构 参数 95%CI 在 理论 范围 之 上 且 BIAS 明显 大 于 0， 使 用 pPB 计算 的 95%СТ E} 


在 理论 范围 之 下 且 BIAS 明显 小 于 0, 重 抽样 次 数 的 增加 对 于 pNPB 及 pPB 的 表现 没有 明显 


影响 ， 当 N =3000 时 结构 参数 的 95%CI7 EEA 


BIAS 这 两 个 评价 指标 均 在 变 好 ， 并 且 可 


以 发 现 当 B>3000 时 pPB 的 表现 略微 优 于 其 他 重 


加 对 于 pNPB 的 影响 较 小 。 


图 8 与 图 9 中 呈现 的 是 CDM 完全 正确 设 定时 ， 基 于 解析 法 的 结构 参数 


样 次 数 下 的 表现 ， 但 是 重 抽样 次 数 的 增 


的 95%CI #8 i 


率 及 SE 的 BIAS。 在 高 和 中 等 项 目 质量 条 件 下 , 使 用 XPD、Obs 以 及 Sw 计算 的 结构 参数 的 


SE 均 有 好 的 表现 ， 几 乎 所 有 结构 参数 的 935%C7 覆盖 率 都 落 在 图 中 灰 线 的 理论 范围 内 或 边界 
E, BIAS 几乎 完全 与 0 重合 。 低 质量 项 目 严 重 影响 了 使 用 XPD、Obs 以 及 Sw 计算 的 结构 


参数 的 SE 的 表现 ;，N =1000 时， 使 用 XPD、Obs it 


的 结构 参数 9594CI 在 理论 范围 之 下 


且 大 多 数 BIAS 小 于 0, 使 用 Sw 计算 的 95%CI 大 部 分 在 理论 范围 之 上 且 BIAS 明显 大 于 0; 


N =3000 IY XPD, Obs 以 及 Sw 计算 的 结构 参数 95%CI 覆盖 率 及 BIAS 的 表现 均 在 变 好 ， 


尤其 是 使 用 Sw 计算 的 结构 参数 95%C7 大 部 分 在 至 


条 件 下 , 基于 Sw 方法 计算 的 结构 参数 的 9595 CI 覆盖 率 及 BIAS 中 分 别 有 1 个 及 3 MEER 


LE 论 范围 内 。 另外 , 低 质量 项 目 且 


N=1000 


8 及 图 9 的 区 间 之 外 ; 检查 发 现 ， 与 先前 一 样 ， 也 是 由 于 基于 Sw 方法 计算 的 SE 中 有 数值 


极端 偏离 正常 值 的 结果 。 综 合 对 比 XPD、Obs、Sw、pNPB 以 及 pPB， 可 以 发 现 除了 低 质量 


项 目 且 N=1000 条件 下 以 上 方法 表现 均 比较 差 之 外 ，Sw 方法 的 表现 与 其 他 方法 相当 或 优 于 


其 他 方法 。 
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8 CDM 模型 参数 完全 正确 设 定时 ， 基 于 XPD. Obs 5 Sw 的 结构 参数 的 9595CI 8 mi XE 
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图 9 CDM 模型 参数 完全 正确 设 定时 ， 基 于 XPD、Obs 与 Sw 的 结构 参数 的 SE 的 BIAS 
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10 CDM 模型 参数 宛 余 时 ， 基 于 pNPB 与 pPB 的 允许 存在 项 目 参数 的 95%CI 覆盖 率 
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11 CDM 模型 参数 元 余 时 ， 基 于 pNPB 与 pPB 的 允许 存在 项 目 参 数 的 SE 的 BIAS 


SE 
估计 
方法 
A pNPB 
+ pPB 


4.4.2 CDM 的 模型 参数 元 余 条 件 下 的 实验 结果 
如 前 所 述 ， 当 数据 生成 模型 是 HCDM,， 但 使 用 饱和 模型 (如 饱和 G-DINA) 佑 计 模 型 参数 
时 ,可 能 会 导致 模型 参数 估计 值 的 边界 值 问 题 , 造成 解析 法 信息 和 矩阵 无 法 求 逆 或 者 会 产生 不 


稳定 的 SE 估计 结果 。 自 助 法 不 存在 矩阵 求 逆 问 题 , 但 这 种 情况 下 pNPB 以 及 pPB 的 表现 有 


待 进 一 步 探 索 。 


在 模型 参数 元 余 条 件 下 , 按照 允许 存在 参数 及 非 允 许 存 在 参数 这 两 类 分 别 呈 现 项 目 参数 


及 结构 参数 的 SE 的 研究 结果 。 另外 , 为 完整 显示 全 部 结果 , 将 模型 参数 元 余 条 件 下 的 95%C7 


履 盖 率 的 坐标 范围 设置 为 [0.3，! 


]。 图 10 与 图 11 呈现 的 是 允许 存在 项 目 参数 的 95%CI 28 m 


率 及 SE 的 BIAS. TURI, Ж 


管 在 高 质量 及 中 质量 项 目 条 件 下 , 绝 大 多 数 的 项 目 参 数 有 展 


好 的 95%CI #8 17 € BIAS 控制 水 平 ， 但 是 有 些 参数 的 95%CI 低 于 图 中 灰 线 的 理论 区 间 ， 


并 且 存 在 较 大 的 BIAS; 且 在 项 


目 质 量 的 所 有 水 平 下 ， 这 些 极 端 偏离 理论 区 间 的 项 目 参数 的 


表现 并 没有 随 着 其 他 实验 条 件 的 改变 而 发 生 明 显 的 变化 ， 甚 至 在 N = 3000 时 更 加 偏离 理论 
区 间 。 这 主要 是 因为 当 使 用 饱和 模型 估计 HCDM 时 ， 由 于 错误 地 设 定 某 些 “ 非 允许 存在 ”的 
属性 掌握 模式 为 "存在 造成 了 项 目 参 数 估计 值 存在 偏差 , 影响 了 这 些 项 目 参数 的 9599 CT 18 
盖 率 及 BIAS 表现 。 例 如, 对比 公式 (3) 和 (4)， 可 以 发 现 如 果 “ 真 "模型 是 带 有 线性 层级 关系 的 


HCDM, 但 使 用 饱和 CDM 估计 模型 参数 时 ,由 于 “ 非 允许 存在 ”的 属性 掌握 模式 a, 被 错误 地 


设 定 为 “存在 ” 造成 饱和 CDM PEM Жс}, ARMA BALA, 真 值 都 等 于 0。 除了 极端 偏 


离 理论 区 间 的 项 目 参数 外 ， 仔 


| 对比 高 质量 及 中 质量 项 目 条 件 下 理论 区 间 附 近 的 项 目 参数 ， 


可 以 发 现 随 着 重 抽 样 次 数 B 从 200 增加 到 3000， 项 目 参 数 的 95%СТ E н АР, {Ade 
В = 3000 5 B = 5000 两 个 水 平 下 的 结果 高 度 一 致 。 在 低 质 量 项 目 条 件 下 ， 人 允许 存在 项 目 参数 


的 9594CI 覆盖 率 结果 波动 明显 。 


图 12 与 图 13 中 呈现 的 是 CDM 模型 参数 元 余 条 件 下 非 允 许 存 在 项 目 参 数 的 95%CI ë 


HKK SE 的 BIAS。, 整 体 而 言 , 大 部 分 非 允 许 存在 项 目 参 数 的 9596CI 覆盖 率 低 于 理论 区 间 ， 


大 部 分 的 BIAS 值 也 低 于 0。 


且 在 同一 个 项 目 质量 水 平 下 ， 这 些 非 允许 存在 项 目 参数 的 表 


现 具有 较 高 的 一 致 性 。 另 外 可 以 发 现 样本 量 、 项 目 质量 以 及 重 抽样 次 数 对 于 这 两 个 指标 没有 
明显 影响 。 从 估计 方法 角度 而 言 ，pNPB 在 估计 非 允 许 存在 项 目 参数 的 SE 的 表现 要 稍微 优 


T pPB. 
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12 CDM 模型 参数 元 余 时 ， 基 于 pNPB 与 pPB 的 非 允 许 存在 项 目 参数 的 95%CI 覆盖 率 
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图 13 CDM 模型 参数 元 余 时 ， 基 于 pNPB 与 pPB 的 非 允许 存在 项 目 参 数 的 SE HJ BIAS 
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图 15 CDM 模型 参数 宛 余 时 ， 基 于 pNPB 与 pPB 的 允许 存在 结构 参数 的 SE 的 BIAS 
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图 14 CDM 模型 参数 元 余 时 ， 基 于 pNPB 与 pPB 的 允许 存在 结构 参数 的 95%CI 8 m Ж 
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图 14 与 图 15 中 呈现 的 是 CDM 模型 参数 元 余 条 件 下 允许 存在 结构 参数 的 9595 CI TE m 
率 和 SE 的 BIAS 结果 。 对 于 允许 存在 结构 参数 而 言 , 在 高 质量 及 中 等 质量 项 目 条 件 下 , pNPB 
及 pPB 方法 估计 的 95%CT 均 在 理论 区 间 内 或 边界 线 上 ， 且 随 着 样本 量 及 重 抽 样 次 数 的 增加 
也 在 逐渐 变 好 ， 人 允许 存在 结构 参数 的 SE 的 BIAS 也 几乎 完全 与 0 重合 。 项 目 质量 对 于 结构 
参数 的 95%C7 覆盖 率 及 BIAS 影响 明显 ， 可 以 发 现 随 着 项 目 质 量 降 低 结 构 参 数 95%C7 #8 m: 
率 的 波动 明显 增 大 ，BIAS 对 于 0 的 偏离 也 在 增 大 。 在 低 质量 项 目 条 件 下 ， 当 N=1000 时 使 
用 pPB 估计 的 结构 参数 的 95%CI 履 盖 率 全 部 在 理论 区 间 之 下 ， 且 通过 BIAS 结果 可 以 发 现 
此 种 情况 下 pPB 倾向 于 低估 SE; 使 用 pNPB 估计 的 结构 参数 95%CI 覆盖 率 多 数 在 理论 区 间 
之 上 ， 且 通过 BIAS 结果 可 以 发 现 这 种 方法 倾向 于 高 估 SE; 另外 可 以 发 现 增加 样本 量 可 以 
改进 pNPB 和 pPB 的 表现 ， 但 是 增加 重 抽样 次 数 几 乎 没有 影响 。 

图 16 与 图 17 中 呈现 的 是 非 允许 存在 结构 参数 的 95%СТ 覆盖 率 和 SE 的 BIAS 结果 。 正 
如 本 文 先前 所 述 , 匈 余 结构 参数 的 存在 对 项 目 参 数 估计 值 产生 了 影响 , 进而 影响 到 项 目 参 数 
的 SE 的 表现 。 因此 , 如 何 消除 非 允许 存在 结构 参数 是 一 个 非常 有 价值 的 问题 。 先前 研究 (Liu 
et al., 2021) 探 讨 了 使 用 解析 法 计算 SE， 然 后 通过 公式 (1) 中 呈现 的 z 统计 量 对 结构 参数 进行 
显著 性 检验 的 方法 消除 非 允许 存在 结构 参数 。 通过 z 统计 量 公 式 可 以 发 现 , 准确 的 结构 参数 


的 SE， 即 SE()， 对 消除 非 允许 存在 结构 参数 特别 重要 。 但 是 解析 法 存在 边界 值 及 奇异 算 


阵 问 题 ， 影 响 了 XPD、Obs 及 Sw 的 实践 应 用 。pNPB 以 及 pPB 不 存在 以 上 不 足 ， 因 此 使 用 
这 两 种 方法 计算 的 非 允许 存在 结构 参数 的 SE 的 表现 需要 重点 关注 。 通 过 图 16 可 以 发 现 ， 

非 允 许 存在 结构 参数 的 95%C7 覆盖 率 受到 项 目 质量 的 影响 。 在 高 质量 项 目 条 件 下 使 用 pNPB 
О 以 及 pPB 计算 的 95%CI 覆盖 率 均 稍微 高 于 理论 区 间 。 出 现 这 种 情况 的 原因 主要 在 于 ， 在 高 


质量 项 目 条 件 下 所 获 的 B 个 人 的 标准 差 SE( 人 大 于 在 R 次 重复 中 获得 的 ?的 标准 差 SE (7) ， 


即 高 质量 项 目 条 件 下 结构 参数 受 重 抽 样 因 素 的 影响 而 产生 的 变化 相对 更 大 。 但 是 通过 与 图 
17 中 的 BIAS 结果 进行 对 照 可 以 发 现 ， 整 体 而 言 ， 通 过 pNPB 以 及 pPB 估计 的 SE 与 通过 多 
次 重复 中 的 模型 参数 而 计算 的 标准 差 的 绝对 差异 非常 小 ; 另外 pNPB 以 及 pPB 估计 的 SE Ж 
现在 其 他 条 件 下 的 差异 很 小 ， 尤 其 是 增加 重 抽 样 次 数 没 有 改善 这 两 种 方法 的 表现 。 
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图 17 CDM 模型 参数 元 余 时 ， 基 于 pNPB 与 pPB 的 非 允 许 存 在 结构 参数 的 SE 的 BIAS 
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下 通过 非 参 数 方法 获得 重 


表现 相对 较 好 。 随 着 村 


中 等 质量 项 目 条 件 下 ， 基 于 pNPB 的 非 允 许 存 在 结构 参数 的 95%СТ 覆盖 率 大 部 分 在 
理论 区 间 之 上 ， 基 于 pPB 的 95%C7 履 盖 率 大 部 分 在 理论 区 间 之 内 。 即 ， 中 等 质量 项 目 条 件 


| 样 样本 而 计算 的 分 的 SE (ñ) 5 85(7) 更 为 接近 ,因此 pNPB 的 


F 本 量 的 增 大 ， 除 了 使 用 pPB 计算 的 第 三 个 结构 参数 的 SE 外 ， 其 余 均 


更 接近 理论 区 间 。 可 以 发 现 ， 增 加 重 抽样 次 数 同样 没有 改善 这 两 种 方法 的 表现 。 


在 低 质量 项 目 条件 下 ， 检 


本 量 大 小 对 于 非 允 许 存 在 结构 参数 的 SE 表现 的 影响 明显 。 当 


N=1000 时 , 基于 pNPB 的 95%C7 履 盖 率 高 于 理论 区 间 , 基于 pPB 的 95%C1 覆盖 率 则 几乎 


全 部 都 低 于 理论 区 间 。 出 现 以 上 表现 的 原 


抽样 样本 xf 


因 主要 是 ， 相 对 于 SB(7] 而 言 ， 非 参数 方法 获得 重 


i 计算 的 B m SEQ), ， 在 多 数 情 况 下 相对 更 大 。 但 是 随 着 样本 量 的 增加 


(入 =3000 ) 这 两 种 方法 在 95%СТ HAM BIAS 上 的 表现 也 在 变 好 。 另 外 , 将 重 抽样 次 数 从 
В = 200 #12] B = 5000 X SE 的 表现 几乎 没有 任何 影响 。 


| M 


1 1 1 1 1 1 1 1 1 1 1 1 
123 4 5 6 7 8 9 1011 12 


图 18 EC 


5 实证 数据 分 析 


在 CDM 研究 中 ,ECPE (the Examination forthe Certificate ofProficiency in English; Templin 


1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 
13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 
JH 


PE 数据 集 的 Q Hi 


久 Bradshaw,2014) 是 经 典 的 实证 数据 之 一 。 本 研究 所 用 ECPE 数据 通过 CDM (Robitzsch etal., 
2020) 软 件 包 公开 获取 ， 包 含 2922 名 被 试 在 28 个 二 值 计 分 的 英语 语法 测验 项 目 上 的 作答 。 


英语 测验 的 内 容 专家 与 心理 测量 专家 合作 研究 认为 : 在 这 个 数据 集中 共有 三 个 属性 : os ( 词 


法 句法 规则 ，morphosyntactic rules). a, (整合 规则 ，cohesive rules) 以 及 a, (词汇 规则 ，lexical 


rules)， 


图 18 中 呈现 了 ECPE 数据 集 的 Q Я 


之 间 可 能 存在 线性 层级 结构 关系 : a, эа, 


E 阵 (Templin & Hoffman, 2013); 并 且 这 三 个 属性 


— a, (Liu et al., 2021; Templin & Bradshaw, 2014; 


Wang & Lu, 2021)。 先 前 研究 发 现 结构 参数 的 SE 在 探索 属性 层级 关系 时 有 重要 价值 ， 因 此 
本 文 以 ECPE 数据 的 结构 参数 的 SE 估计 为 例 ， 对 比 以 往 相 关 研 究 结果 (Liu et al., 2021), Ж 
示 本 研究 的 理论 与 实践 价值 。 


表 1 ECPE 数据 的 结构 参数 估计 值 的 SE 


参数 解析 法 pNPB pPB 
序号 XPD Obs Sw 200 50 3000 10000 200 500 3000 10000 


1 0.017 0.018 0.023 0.021 0.022 0.022 0.021 0.015 0.015 0.015 0.015 
2 0.003 - 0.010 0.008 0.008 0.008 0.008 0.003 0.003 0.003 0.003 
3 0.013 0.014 0.017 0.013 0.014 0.013 0.013 0.010 0.010 0.011 0.011 
4 0.017 0.020 0.027 0.027 0.026 0.026 0.026 0.016 0.016 0.015 0.015 
5 0.006 0.006 0.007 0.007 0.007 0.008 0.008 0.005 0.005 0.005 0.005 
6 0.008 0.007 0.016 0.010 0.010 0.010 0.011 0.008 0.008 0.008 0.008 


7 0.018 0.020 0.027 0.023 0.023 0.024 0.024 0.018 0.018 0.017 0.017 


YE: pNPB. pPB 对 应 的 数字 指 重 抽样 次 数 。“-” 表 示 无 法 计算 。 
5.1 数据 分 析 方 法 


= 使 用 同一 链接 下 的 饱和 G-DINA 模型 估计 模型 参数 ， 使 用 pPB 以 及 pNPB 估计 模型 参 


数 的 SE, 并 与 PB 以 及 NPB 比较 运算 时 间 。 使 用 GDINA 软件 包 估 计 模 型 参数 , 基于 XPD. 


Obs 及 Sw 的 模型 参数 的 SE 估计 代码 改编 自 deminfo 软件 包 (Liu & Xin, 2017)， 其 余 功 能 自 


编 R 代码 实现 ， 在 云 主机 运行 上 允许 全 部 程序 。 特 别 说 明 的 是 : (1) 在 ECPE 数据 的 饱和 结 


HRA RIE L= r =8 种 属性 掌握 模式 ， 因 为 结构 参数 之 和 等 于 1, 因此 将 第 8 个 结构 参数 


S AON ng =1- Yun 。(2) 理 论 上 讲 , 重 抽样 次 数 越 多 ,获得 准确 SE 估计 结果 的 可 能 性 就 越 


大 ， 在 本 例 中 增加 了 B=10000 时 使 用 pPB 以 及 pNPB 估计 SE 结果 ; 由 于 PB 以 及 NPB Ж 
时 会 特别 长 ， 因 此 没有 考察 这 两 个 方法 的 运行 时 间 。 


类 型 
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图 19 ECPE 数据 集中 所 有 可 能 的 属性 掌握 模式 及 其 对 应 的 结构 参数 估计 值 
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图 19 中 呈现 了 饱和 结构 模型 中 8 种 属性 掌握 模式 及 其 对 应 的 结构 参数 估计 值 。 表 1 ， 


l| 


呈现 的 是 使 用 不 同方 法 计算 的 图 19 中 呈现 的 结构 参数 估计 值 所 对 应 的 SE。 对 比 使 用 不 同方 
法 计算 的 结构 参数 的 SE 估计 值 可 以 发 现 ， 整 体 上 使 用 pPB 方法 估计 的 SE 与 使 用 XPD 77 
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法 估计 的 SE 在 数值 上 非常 接近 ; 使 用 pNPB 方法 估计 的 SE 与 使 用 Sw 方法 估计 的 SE 在 数 
值 上 比较 接近 。 对 比 pNPB 方法 与 pPB 方法 可 以 发 现 ，pNPB 估计 的 SE 的 值 比 pPB 方法 估 
计 的 值 要 大 ， 这 与 模拟 研究 中 CDM 模型 参数 见 余 时 允许 存在 的 结构 参数 的 SE 及 非 允 许 存 
在 结构 参数 的 SE 的 结果 是 一 致 的 。 


当 ECPE 数据 中 存在 线性 层级 关系 w — a, — a, 时， 第 2、3、6 个 结构 参数 (图 19 中 灰 


xr 
= 


И 


色 部 分 ) 应 该 近似 等 于 0 (Templin & Bradshaw, 2014)， 然 而 对 于 特定 的 结构 参数 而 


, 


ў, =0.014 是 否 近 似 等 于 0, 需要 统计 检验 。 Liu 等 人 (2021) 分 别 使 用 XPD、Obs 以 及 Sw 方法 


计算 结构 参数 的 SE， 即 SE (有 ) ， 然 后 使 用 公式 (1) 中 的 z 统计 量 检 验 结构 参数 估计 值 六 的 显 


著 性 。 他 们 研究 发 现 ， 除 了 Obs 方法 无 法 计算 第 2 个 参数 的 SE 外 ， 使 用 基于 XPD. Obs 以 
及 Sw 方法 的 SE 计算 的 z 统计 量 ， 在 经 过 显著 性 水 平 校正 后 均一 致 地 证 实 了 存在 线性 层级 


关系 的 结论 。 在 z 统计 量 计算 公式 中 , 结构 参数 估计 值 方 在 各 个 方法 中 是 相同 的 ,只 有 SE (ñ) 


受到 计算 方法 的 影响 而 取 值 不 同 。 本 研究 中 ， 由 于 使 用 pNPB 及 pPB 计算 第 2、3、6 个 结 
构 参 数 的 SE 的 值 均 处 于 使 用 XPD、Obs 以 及 Sw 方法 计算 的 SE 的 最 大 值 与 最 小 值 之 间 ， 
所 以 使 用 公式 (1) 计 算 的 z 统计 量 的 值 也 会 位 于 解析 法 矩阵 计算 的 z 统计 量 的 最 大 值 与 最 小 
值 之 间 。 也 就 是 ， 使 用 这 两 种 方法 计算 的 SE 同样 证 实 了 线性 层级 关系 的 存在 。 需 要 明确 指 
出 的 是 ， 当 CDM 中 存在 属性 层级 关系 时 ，XPD、Obs 以 及 Sw 方法 经 常会 遇 到 无 法 求 逆 的 
问题 ， 而 且 对 于 Obs 和 矩阵 而 言 可 能 会 由 于 计算 误差 的 存在 使 得 对 角 线 元 素 小 于 0 而 无 法 计 
算 SE( 如 ， 本 例 中 的 第 2 个 结构 参数 的 SE)。 自 助 法 使 用 通过 重 抽 样 数 据 估计 获得 的 模型 参 
数 直 接 计算 SE， 有 具有 解析 法 所 不 具备 的 无 需求 逆 矩 阵 的 优点 。 另 外 ， 同 模拟 结果 一 致 ， 在 
这 个 例子 中 同样 可 以 发 现 增加 重 抽样 次 数 对 SE 估计 值 产生 了 很 小 的 影响 ， 尤 其 是 B>3000 
时 。 

为 了 直观 地 说 明 pNPB 及 pPB 在 运算 效率 上 的 提升 ,本 文 比较 了 使 用 200、500 及 3000 
次 重 抽样 时 新 方法 与 传统 自助 法 在 计算 时 间 上 的 差异 ,结果 显示 :pNPB 耗 时 分 别 是 10.935. 


25.43s、135.36s; pPB 耗 时 分 别 是 15.42s、36.01s、200.96s; NPB 耗 时 分 别 是 158.43s、392.97s、 


2282.33s; PB 耗 时 分 别 是 220.77s8、537.15s、3201.17s。 可 以 发 现 ，pNPB 及 pPB 极 大 地 提升 
了 计算 效率 。 
6 讨论 与 展望 

CDM 研究 中 , 模型 参数 的 SE 及 CI 估计 是 一 个 具有 重要 价值 且 富 有 挑战 性 的 问题 (de la 
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Torre, 2011; Liu et al., 2021; Ma & de la Torre, 2019; von Davier, 2014)。 解 析 法 信息 矩阵 XPD、 
Obs 及 Sw 等 在 多 数 的 应 用 情景 中 虽然 有 好 的 表现 (Liu, Xin etal., 2019; Philipp etal., 2018; xil 
BEBE 等 ,2016), 但 其 缺点 在 于 需要 矩阵 正定 , 且 易 受 边界 值 问题 的 影响 DeCarlo, 2011, 2019); 
传统 自助 法 ， 如 NPB 以 及 PB 虽然 具有 前 提 假设 少 、 通 用 性 强 的 优点 ， 但 是 存在 计算 效率 
低 、 耗 时 长 的 问题 (Ma & de la Torre, 2020b)。 本 研究 提出 使 用 pNPB 以 及 pPB 计算 CDM 模 
型 参数 的 SE 及 CT， 系 统 探 讨 了 模型 设 定 、 样 本 量 、 重 抽样 次 数 、 项 目 质量 及 具体 估计 方法 
对 SE 及 CI 估计 结果 的 影响 ; 展示 了 pNPB 以 及 pPB 在 分 析 可 能 存在 属性 层级 关系 的 CDM 
实证 数据 ECPE 时 的 检验 效果 与 计算 效率 。 

特别 指出 的 是 ， 除了 解析 法 信息 矩阵 、 自 助 法 外 还 有 其 他 方法 可 以 用 于 计算 CDM 模型 
参数 的 SE 5 СІ, Wl MCMC (Markov chain Monte Carlo) 方 法 。MCMC 方法 不 仅 可 以 用 于 计 
算 模型 参数 估计 值 ， 而 且 可 以 通过 计算 估计 过 程 中 产生 的 模型 参数 的 标准 差 ， 作 为 SE 的 估 
it. fH] MCMC 估计 CDM 的 模型 参数 ,计算 耗 时 可 能 会 特别 长 (例如 ， 大 于 1 小 时 )。 对 于 
模型 参数 的 SE 及 CI 进行 研究 时 , 需要 进行 大 量 的 重复 (如 500 次 或 以 上 ) 才 能 获得 可 靠 的 模 
拟 结果 (Liu, Xin et al., 2019; Philipp et al., 2018; xIERE 等 , 2016)。 另 外 ， 这 类 基于 贝 叶 斯 的 
方法 可 能 对 于 先 验 分 布 敏感 (Jing etal,2021)。 因 此 ， 本 研究 没有 探讨 使 用 MCMC 算法 计算 
CDM 模型 参数 的 SE 及 CI 的 表现 。 
6.1 讨论 
(1) 自 助 法 在 估计 SE 及 CI 时 的 表现 

本 质 而 言 ， 无 论 是 NPB 还 是 PB 都 是 模拟 从 总 体 中 抽样 获得 样本 数据 的 过 程 : 将 样本 
或 通过 样本 估计 获得 的 模型 参数 认为 是 "总体 ”再 抽样 计算 的 ， 是 对 于 “样本 ”的 再 抽样 。 也 就 

， 自 助 法 无 法 超越 它 所 依赖 的 “样本 "而 凭空 产生 出 更 多 的 信息 。 因 此 ， 在 CDM 的 观察 数 
据 中 所 包含 的 关于 未 知 参数 的 信息 越 多 、 越 准确 ， 自 助 法 的 效果 会 越 好 。 模 拟 研究 中 发 现 ， 
模型 设 定 、 样 本 量 以 及 项 目 质量 对 于 pNPB 及 pPB 的 表现 有 重要 影响 。 这 主要 是 因为 在 模 
型 正确 设 定 条 件 下 , 观察 数据 与 模型 是 完美 拟 合 的 ; 而 模型 参数 元 余 条 件 下 的 情景 与 此 相反 ， 
可 以 明显 地 观察 到 使 用 饱和 模型 拟 合 带 有 属性 层级 关系 的 数据 时 ， 由 于 非 允 许 参数 的 存在 ， 
模型 参数 估计 值 的 估计 准确 性 受到 了 很 大 的 影响 。 这 从 侧面 说 明了 在 CDM 中 进行 属性 层级 
关系 检验 或 探索 的 重要 性 (Hu & Templin, 2020; Liu etal., 2021; Ма & Xu, 2021). ЖЕ, 
所 包含 的 关于 未 知 参 数 的 信息 越 多 ,模型 参数 估计 值 就 会 越 准确 ; 项 目 质量 越 高 ， 越 能 有 效 
又 分 被 试 的 属性 掌握 模式 状况 ， 也 就 是 说 此 时 样本 能 够 提供 更 多 信息 ， 从 而 使 得 pNPB 及 
pPB 的 表现 越 好 。 通 过 模拟 数据 观察 到 的 一 个 有 意思 的 现象 是 在 低 质量 项 目 条 件 下 , 与 同 实 
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验 水 平 组 合 的 前 半 段 参数 相 比 ， 后 半 段 的 项 目 参 数 的 95%C7 Hus BIAS 的 表现 明显 变 
差 。 观 察 Q 矩阵 可 以 发 现 ， 在 最 后 4 个 项 目 中 每 个 项 目 都 测量 了 3 个 属性 ， 也 就 是 说 每 个 
项 目 中 都 有 8 个 项 目 参数 需要 估计 ， 也 就 是 在 低 质 量 项 目 条 件 下 最 后 的 4 个 项 目 中 可 供 利 
的 信息 明显 少 于 其 他 项 目 。 
(2) 重 抽样 次 数 对 于 自助 法 的 影响 
自助 法 是 计算 密集 型 方法 ， 特 定 计算 环境 中 重 抽样 次 数 越 多 计算 时 间 也 就 会 越 长 (Efron 
& Tibshirani, 1993)， 就 理论 而 言 ， 重 抽样 次 数 的 增加 会 增加 SE 估计 准确 的 可 能 性 (Hayes， 
2009, 2018)。 如 前 所 述 ， 在 自助 法 中 如 何 确定 重 抽样 次 数 还 没有 明确 的 结论 (Bai et al., 2016; 
Guo & Wind, 2021; Lai, 2021)。 本 研究 在 使 用 并 行 自助 法 计算 效率 提升 的 基础 上 ， 探 索 了 
В = 200. 500. 3000 及 5000 时 的 表现 。 从 整体 而 言 ， 重 抽样 次 数 对 于 pNPB 及 pPB 表现 的 
影响 较 小 ， 当 重 抽样 次 数 B>500 时 各 条 件 组 合 下 的 模拟 结果 开始 变 得 稳定 ， B=3000 与 
В = 5000 两 种 重 抽样 次 数 下 的 结果 则 几乎 完全 相同 。 模 型 完全 正确 设 定时 一 些 条 件 下 的 参数 
或 模型 元 余 设 定时 允许 存在 参数 的 95%CI FMRE BIAS 的 表现 随 着 重 抽 样 次 数 B 从 200 
增加 到 3000 稍 有 变 好 ;在 一 些 非 理想 情景 下 ， 如 项 目 质量 低 、 非 允许 存在 参数 等 ， 重 抽样 
次 数 的 增加 对 于 pNPB K pPB 表现 没有 明显 影响 。 实 证 数据 分 析 发 现 pNPB 在 200. 500 和 
3000 下 的 结果 与 10000 次 重 抽样 次 数 下 的 结果 相 比 仅 有 细微 的 差别 ,，pPB 在 3000 次 重复 时 
的 结果 与 10000 次 重复 下 的 结果 几乎 一 致 。 理 论 上 而 言 ，CDM 的 信息 矩阵 是 关于 观察 数据 
中 包含 的 模型 参数 信息 的 度量 (Liu, Xin et al., 2019)， 而 SE 则 是 关于 模型 参数 估计 值 不 确定 
言 息 的 度量 (Liu et al., 2021)， 这 也 就 是 说 ， 观 察 数据 中 包含 “信息 ” 量 的 多 少 是 影响 SE 表现 
的 主要 因素 。 本 文 的 模拟 及 实证 研究 支持 以 上 理论 , 因此 作者 认为 影响 自助 法 表现 的 最 主要 
因素 并 非 重 抽 样 次 数 ， 而 是 观察 数据 中 所 包含 “信息 ”的 多 少 。 当 然 ， 本 文 结论 是 否 可 以 推广 
到 其 他 情景 中 有 待 进一步 研究 。 
6.2 研究 展望 

有 一 些 重要 问题 需要 在 后 续 研究 中 进一步 探讨 。(1) 本 文 仅 在 项 目 数量 为 30， 属 性 数 
为 4 的 条 件 下 展开 研究 ， 后 续 研 究 者 可 以 继续 探讨 不 同 项 目 数量 及 属性 数量 对 于 pNPB Ж 


ig 


pPB 的 影响 。(2) 本 研究 仅 以 (w — o,» ara, ) 层 级 关系 为 例 ， 探 讨 了 模型 参数 元 余 设 定 对 


于 pNPB 及 pPB 表现 的 影响 ， 然 而 不 同属 性 层级 关系 条 件 下 ， 模 型 参数 的 SE 的 表现 ， 尤 其 
是 结构 参数 的 SE 的 表现 有 待 进一步 探索 。 现 实 中 不 仅 会 存在 属性 层级 关系 ， 而 且 可 能 会 同 
时 存在 属性 之 间 的 相关 (Hu & Templin, 2020; Liu et al., 2021)， 限 于 研究 目的 ， 本 研究 没有 考 
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SH, Jiang, 2021; аі, 2021). (Aff riz ta BF 


虑 这 种 情景 .本文 认为 pNPB 及 pPB 在 探索 及 验证 属性 层级 关系 时 的 表现 值得 进一步 研究 。 
(3) 除 了 本 研究 中 使 用 的 模型 参数 95%C7 НҒ 
的 表现 也 值得 进一步 关注 ( 
存在 时 经 常会 遇 到 无 法 求 逆 的 问题 ， 


方法 外 ， 还 有 一 些 基于 自助 法 的 CI 计算 方法 
E 阵 在 属性 层级 关系 
因此 本 研究 无 法 直接 比较 这 两 类 方法 的 优 务 ，Liu 等 人 


(2021) 初 步 提 出 了 通过 逐步 排除 非 允许 存在 结构 参数 的 两 阶段 模型 参数 估计 的 思路 ， 这 也 是 


—^H 


具有 重要 理论 及 实践 价值 的 方向 。 本 研究 在 CDM 模型 参数 完全 正确 设 定 条 件 下 对 比 了 


解析 法 XPD. Obs. Sw. pNPB 及 pPB 的 表现 ， 结 果 显 示 ， 解 析 法 (如 ，Obs 或 Sw) 在 一 些 条 


件 下 的 表现 要 稍 优 于 pNPB 或 pPB。 后 续 研究 可 以 比较 两 阶段 模型 参数 估 让 


与 pNPB 及 pPB 方法 的 表现 。 (5) 需 要 特别 指出 的 是 , pNPB 及 pPB 除 可 以 用 了 


| 思路 下 的 解析 法 


i 


SE 及 CI 


外 ， 还 有 很 多 潜在 的 理论 及 实践 价值 。 研 究 者 可 以 进一步 探索 pNPB 及 pPB 在 项 目 功能 差 


异 检验 、 项 目 水 平 上 的 模型 比较 、Q 矩阵 检验 等 领域 中 的 表现 。(6) 本 文 在 CDM 框架 下 探讨 


了 pNPB 及 pPB 的 表现 ， 但 是 作为 通用 性 强 的 一 类 方法 ， 后 续 帮 


的 基础 上 , 在 其 他 统计 与 测量 模型 中 深入 探讨 


论 或 结论 相 冲 突 的 问题 (例如 ，Efron & Tibshirani, 1993; Hayes, 2009, 2018; Lai, 2021). 


7 结论 


结果 显示 : (1)CDM 完全 正确 设 定时 ， 在 


pPB 这 两 种 方法 计算 的 项 目 参数 和 结构 参数 95%C7 Hi ti BR BIAS 均 有 好 的 表现 ; 且 随 着 


样本 量 的 增 大 及 项 目 质量 的 变 好 ， 这 两 也 
pNPB 及 pPB 的 表现 ，pNPB 倾向 于 高 估 模 型 参数 的 SE, pPB I 


的 模型 参数 存在 见 余 时 ， 在 高 质量 及 中 等 质量 


高 质量 及 中 等 质量 项 目 条 件 下 ， 使 月 
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究 者 可 以 在 玫 
自助 法 的 表现 ,以 解决 先前 研究 没有 明确 


F 发 并 行 方法 


的 结 


Н pNPB Ж 


方法 的 表现 也 在 变 好 。 低 项 目 质量 严重 影响 了 
项 向 于 低估 SE。(2) 在 CDM 


项 目 条 件 下 ， 使 用 pNPB 及 pPB 这 两 种 方法 


计算 的 大 部 分 允许 存在 项 目 参数 和 几乎 全 部 允许 存在 结构 参数 的 95%СТ Bi 15 & BIAS 5] 


有 好 的 表现 ， 但 是 也 存在 部 分 项 目 参数 的 9599 CI 履 新 率 极端 偏离 理论 区 间 且 BIAS 值 为 负 


数 的 情况 。 非 允许 存在 项 目 参数 及 结构 参数 的 95%CI 覆盖 率 在 大 多 数 条 件 下 表现 较 差 。(G) 


探讨 了 pNPB 及 pPB 在 实证 数据 中 的 效果 ， 发 现 使 用 pNPB 及 pPB 计算 的 SE, 9 У 1517 
前 研究 一 致 的 结论 ， 即 ECPE 数据 中 存在 线性 


pPB 极 大 地 提升 了 计生 


数据 分 析 结 果 ， 本 研究 初步 认为 : 在 pNPB 及 pPB 方法 中 为 快速 预览 SE 估计 结果 可 以 选择 


[n 


属性 层级 关系 ; 同 NPB 及 PB 相 比 ，pNPB 及 


效率 ， 是 简易 、 可 行 的 SE 及 CI 计算 方法 。(4) 综 合 模拟 研究 与 实证 


200 次 重 抽样 ; 为 获得 较为 准确 


的 估计 结果 , Hí 


慎 起 见 可 以 选择 3000 或 以 上 的 


抽样 次 数 。 
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Standard Errors and Confidence Intervals for Cognitive Diagnostic 


Models: Parallel Bootstrap Methods 


LIU Yanlou 
(Academy of Big Data for Education, Qufu Normal University, Jining 273165, China) 
Abstract 

The model parameter standard error (SE; or variance-covariance matrix), which provides an 
estimate of the uncertainty associated with the model parameter estimate, has both theoretical and 
practical implications in cognitive diagnostic models (CDMs). The drawbacks of the analytic 
methods, such as the empirical cross-product information matrix, observed information matrix, and 
“robust” sandwich-type information matrix, are that they require the positive definiteness of the 
information matrix and may suffer from boundary problems. Another method for estimating model 
parameter SEs is to use the computer-intensive bootstrap method, and consequently, no study has 
systematically explored the performance of the bootstrap in calculating model parameter SEs and 
confidence intervals (C/s) in CDMs. 

The purpose of this research is to present two new highly efficient bootstrap methods to 
calculate model parameter SEs and CIs in CDMs, namely the parallel parametric bootstrap (pPB) 


and parallel non-parametric bootstrap (pNPB) methods. A simulation study was conducted to 


evaluate the performance of the pPB and pNPB methods. Five factors that may influence the 
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performance of the model parameter SEs and С were manipulated. The two model specification 
scenarios considered in this simulation were the correctly specified and over-specified models. The 
sample size was set to two levels: 1,000 and 3,000. Three bootstrap sample sizes were manipulated: 
200, 500, and 3,000. Three levels of item quality were considered: high [ P(0) = 0.1, P(1)= 0.9], 
moderate [P(0)-0.2, P(1)=0.8], and low quality [P(0)=0.3, Р(1) =0.7 ]. The pPB and 
pNPB methods were used to estimate model parameter SEs and CIs. 


The simulation results indicated the following. 

(1) For the correctly specified CDMs, under the high- or moderate-item-quality conditions, the 
coverage rates of the 95% CIs of the model parameter SEs based on the pNPB or pPB method were 
reasonably close to the expected coverage rate, and the bias for each model parameter SE converged 
to zero, meaning that the estimated SE was almost identical to the empirical SE. The increase in the 
bootstrap sample size had only a slight effect on the performance of the pNPB or pPB method. 
Under the low-item-quality condition, the pNPB method tended to over-estimate SE, whereas a 
contrary trend was observed for the pPB method. 

(2) For the over-specified CDMs, most of the permissible item parameter SEs and almost all 
of the permissible structural parameter SEs exhibited good performance in terms of the 95% CT 
coverage rates and bias. Under most of the simulation conditions, the impermissible model 
parameter SEs did not exhibit good performance in approximating the empirical SEs. 

To the best of our knowledge, this is the first study in which the performance of the bootstrap 
method in estimating model parameter SE's and CIs in CDMs is systematically investigated. The 
pNPB or pPB appears to be a useful tool for researchers interested in evaluating the uncertainty of 
the model parameter point estimates. As a time-saving computational strategy, the pNPB or pPB 
method is substantially faster than the usual bootstrap method. The simulation and real data studies 
showed that 3,000 re-samples might be adequate for the bootstrap method in calculating model 
parameter SEs and CIs in CDMs. 

Key words cognitive diagnostic model, standard error, confidence interval, bootstrap, parallel 


computing method 


